编程面试题

从pandas数据框父子表获取父的所有后代

这应该在您想要的两列中返回父级和子级ID： import pandas as pd import numpy as np import itertools df = pd.DataFrame { 'parent_id': [3111, 2010, 3000, 1000, 4023, 3011, 3033, 5010, 3011, 3102, 2010, 4023, 2110, 2100

快速计算具有最小汉明距离的对

最近的论文“ 汉明度量标准下的最接近对问题 ”仅包含涉及n ^ 2因子的算法（除非K非常大）。即使只寻找一对。因此，除非您对实例的结构做进一步的假设，否则似乎很难对此进行改进。例如，如果您假设汉明距离不是很大，则可以对几列进行采样，并在假设这些列完全匹配的情况下根据这些字符串将字符串哈希到存储桶中，然后分别在每

一种算法可以检测出讽刺吗？

看起来有些研究只是尝试了这一点，但是他们还没有想出一种行之有效的算法。来自González- Ibáñez的R.等人。“在Twitter中识别讽刺：近距离观察”

在Debian上实现Python 3机械化的最简单方法是什么？

多年来，Mechanize存储库中没有任何活动。尽管建议使用试验性的Python 3分支，但该分支尚未合并，也没有官方对支持请求的回应。如果您正在寻找一个活跃的项目，则不妨寻找其他地方。与Pytho

特定的模块化乘法算法

正如我在评论中指出的那样，唐津算法可以提供帮助。但是仍然存在一个问题，需要一个单独的解决方案。承担 A =（A1 32）+ A2 B =（B1 32）+ B2。当我们乘以它们时，我们得到： A * B =（（（A1 * B1） 64）+（（A1 * B2 + A2 * B1） 32）+

在ipython笔记本中更改字体和背景颜色

您可以使用一个名为custom.css中的文件，ipython profile dirprofile_profilenamestaticcustomcustom.css该文件将应用于您的笔记本。浏览器缓存可能非常激进，您可能需要强制刷新几次。单词的着色是通过支持主题的a href="http:codemirror.netdemo

算法：如何计算双线性插值的INVERSE？映射到任意四边形的逆函数？

为了简化，让我们从仅考虑单个内插值 z开始。假设四个值 z 00， z 01， z 10， z 10和两个权重 w 0和 w 1应用于第一和第二索引，得出 z 0 = z 00 + w 0 ×（ z 10 - e

为什么在由数组实现的堆中未使用索引0？

没有理由为什么在数组中实现的堆必须保留索引0处的项目未使用。如果您将根设为0，则位于的项目array[index]的子项位于array[index*2+1]和array[index*2+2]。的节点array[child]的父节点为array[child-12]。让我们来看看。

具有多个参数的多处理功能可在Python 2.7中运行

通过添加以下main功能可以解决该问题： import itertools from multiprocessing import Pool def funcg, h, i: return g + h + i def helperargs: args2 = args[0] + args[1], return func*args2 def

优化的TSP算法

200行且无库是一个严格的约束。高级求解器使用分支定界和Held–Karp松弛约束，我不确定哪怕是最基本的版本也能容纳200条法线。不过，这是一个大纲。举行卡普将TSP编写为整数程序的一种方法如下（Dantzig，Fulkerson，Johnson）。对于所有边e，常数w e表示边e的长度，如果边e在巡视线上，则变量x e为1，否则为0。对于所有顶点S的子集，∂（S）表示连接S中的顶点和非S中的

熊猫：使用groupby和函数过滤DataFrame

len我认为您要考虑的不是每个长度，而是每个组中Name的唯一值的数量。使用nunique，并检查此简洁的配方以过滤组。 df[df.groupby'ID'.Name.transformlambda x: x.nunique == 1.astype'bool'] 如果您升级到熊猫0.12，则可以code

如何找到最大生成树？

是的，它确实。归纳为Kruskal的一种计算网络G最大权重生成树的方法可以总结如下。将G的边缘按重量降序排列。令T为包含最大权重生成树的边集。设置T =∅。将第一条边线添加到T。当且仅当它不在T中形成一个循环时，才将下一条边添加到T。如果没有剩余边退出，并报告G断开连接。

计算剩余时间

为什么不？ linesProcessed TimeTaken timetaken linesProcessed * LinesLeft = TimeLeft TimeLeft然后将以任何时间单位表示timeTaken。编辑：感谢

如何在SQLAlchemy（python，flask）中为模型用户创建多对多关系

您尝试实现的模式是多对多关系的特例。SQLAlchemy将此称为邻接列表关系，我建议尝试按照那里的代码进行操作： a href="http:docs.sqlalchemy.orgenrel_0_9ormrel

在大量字符串中查找相似字符串的组

另一种流行的方法是通过字符串的Jaccard索引关联字符串。从http:en.wikipedia.orgwikiJaccard_index开始。这是一篇有关使用Jaccard-index（和其他

通过SqlAlchemy中的关联对象进行多对多，自引用，非对称关系（Twitter模型）

这已经在这里几乎得到了回答。在这里，这可以通过使用裸链接表进行多对多的优势而得到改善。 __ 我在SQL和SqlAlch

哈希：它内部如何运作？

这是有关哈希的很好的解释。例如，您要存储字符串“ Rachel”，则将哈希函数应用于该字符串以获取内存位置。myHashFunctionkey: "Rachel" value: "Rachel" -- 10。该函数可能会为输入“ Rachel”返回10，因此，假设您有一个

Python字符串作为子流程的文件参数

如果您StdinCommand从Popen参数中删除，似乎您的第二个方法应该可以工作： p = Popen['volthchemx86_64-linuxbinmolpro'], shell = False, stdout = None, stderr = STDOUT, stdin = PIPE p.communicateinput = St

关键工具：熵，贪婪，分支定界；Python，生成器，itertools，decorate-unecorate模式在回答这个问题时，我想建立一种有用的函数语言来探讨这个问题。我将介绍这些功能，并描述它们及其意图。最初，这些工具具有广泛的文档，并且使用doctest对小型嵌入式单元测试进行了测试；我不能高度称赞这种方法是实现测试驱动开发的绝妙方法。但是，它不能很好地转换为StackOverflow，因此我不会以这种方式呈现。p

如何从subprocess.communicate（）中捕获python中的流输出

我可以想到一些解决方案。＃1：您可以直接进入源代码以获取，复制和粘贴的代码communicate，并添加可打印每行内容的代码以及对它们进行缓冲的代码。（如果您可能stdout由于死锁的父母而被自己阻止，则可以改用at

在C ++中为Tensorflow模型定义feed_dict

该tensorflow::Session::Run方法与Pythona href="https:www.tensorflow.orgversionsr0.8api

查找给定单词的字谜

示例算法： Open dictionary Create empty hashmap H For each word in dictionary: Create a key that is the word's letters sorted alphabetically and forced to one case Add the word to the list of words accessed

使用当前用户凭据授权以使用NTLM的Python脚本访问SharePoint列表

对于requests_ntlm库，这里有一个开放拉取请求，可以合并到Windows用户的SSPI身份验证中。我必须对代码进行一些编辑才能使其正常运行，但是它对我有用。首先，您需要安装request和request_ntlm，然后修改“ requests_ntlm \ ini

矩阵的Python逆

如果您进行矩阵操作，则应查看numpy。这是一个主要用C编写的模块，它将比用纯python编程要快得多。这是一个如何反转矩阵以及进行其他矩阵处理的示例。 from numpy import matrix from numpy import linalg A = matrix [[1,2,3],

计算图像之间的差异

最简单的措施将是基于RMS误差的方法，例如：均方根偏差峰值信噪比这些可能与您的距离量度概念融为一体，但是只有当您已经有两个非常接近的图像时（例如，如果您正在

如何在GAE / Python上进行“ access_type = offline” /仅服务器的OAuth2操作？

检索令牌时，默认为脱机访问；您可能在出现的OAuth对话框中注意到了这一点：不使用应用程序时执行

如何使用堆在线性时间中找到数字的中位数？

您将使用min-max- median堆在恒定时间内查找min，max和中位数（并花费线性时间来构建堆）。您可以使用订单统计树来找到第k个最小最大值。本文在最小最大堆中描述了a href="http:cg.scs.carleton.ca~morinteaching5408

在SQLAlchemy中使用OVER窗口功能

就像是： select [ bar.c.foo, func.count.over.label'full_count', ], ... 引入此操作的故障单：http :b

如何从单链列表的末尾找到第n个元素？

您的算法通过首先创建对链表中两个节点（相距N个节点）的引用来工作。因此，在您的示例中，如果N为7，则它将p1设置为8，p2设置为4。然后它将每个节点引用前进到列表中的下一个节点，直到p2到达列表中的最后一个元素。同样，在您的示例中，这将是p1为5且p2为10时。在这一点上，p1指的是列表中最后一个元素的第N个元素（通过属性，它们相距N个节点）。

Cron没有运行django命令

由于某些版本的文件python my_django_project_pathmanage.py database_bu适合您，这意味着问题出在您的上cron environment，或者是您设置cron的方式，而不是脚本本身（例如，要上传的文件大小或网络连接均未引起问题））。首先，您正在以以下方式运行脚本

trie和radix trie数据结构之间有什么区别？

基数树是trie的压缩版本。在特里树中，在每个边上都写一个字母，而在PATRICIA树（或基数树）中则存储整个单词。现在，假设你有话hello，hat和have。要将它们存储在一个 trie中，它看起来像： e - l - l - o h - a - t \

计算python脚本执行时间的最简单方法？

timeit模块是专门为此目的而设计的。愚蠢的例子如下 def test: """Stupid test function""" L = [] for i in range100: L.appendi if __name__ =

计算最少的运算以使两个树结构相同

不仅有Wikipedia关于图同构的文章（如Space_C0wb0y所指出），而且还有关于图同构问题的专门文章。它有一个Solved special cases已知多项式时间解的部分。树是其中之一，它引用了以下两个引用： a href="http:

MapReduce排序算法如何工作？

以下是有关Hadoop为Terasort实施的一些详细信息： TeraSort是标准的map reduce排序，但自定义分区程序除外，该分区程序使用N-1个采样键的排序列表来定义每个reduce的键范围。特别是，发送所有采样，使sample [i-1] = ke

如何将python变量传递给html变量？

首先，不确定javascript部分是否有意义，就将其省略。另外，打开 p 标签但不关闭它。不知道您的模板引擎是什么，但是您可以只使用纯python传入变量。另外，请确保在链接周围加上引号。因此，您的代码应类似于： class Serverobject: _cp_config = { 'tools.sessions.on': True,

二叉树vs链表vs哈希表

您的用例大概将是“一次插入数据（例如，应用程序启动），然后执行大量读取，但很少执行插入操作”。因此，您需要使用一种快速查找所需信息的算法。因此，我认为HashTable是最适合使用的算法，因为它只是生成关键对象的哈希，然后使用该哈希访问目标数据- 它是O（1）。其他是O（N）（大小为N的链接列表-您必须一次遍历一个列表，平均重复N 2次）和O（log N）（二叉树-您将搜索空间减半）每次迭代-

不使用pdfkit将Pandas DataFrame保存为PDF文件格式

一种选择是从以下开始： df.to_html 然后使用QT将HTML转换为PDF，如下所示： from PyQt4.QtGui import QTextDocument, QPrinter, QApplication import sys app = QApplicationsys.argv doc = QTextDocument

是否可以根据文本的结构来猜测用户的心情？

这是称为情感分析的自然语言处理领域的基础。尽管您的问题很笼统，但肯定不是愚蠢的- 例如，此类研究是由Amazon对产品评论中的文字进行的。如果您对此很认真，则可以通过以下方式实现一个简单的版本- 获得积极消极情绪的语料库st

如何使用熊猫从Word文档（.docx）文件中的表创建数据框

docx 总是从Word表中以文本（字符串）形式读取数据。如果我们要解析具有正确dtypes的数据，则可以执行以下操作之一：手动dtype为所有列指定（不灵活）编写我们自己的代码来猜测正确的dtypes（太难了，熊猫IO方法做得很好）将数据转换为CSV格式，然后pd.rea

将最胖的人从超载的飞机上摔下来。

一种方法是使用最小堆（std::priority_queue在C ++中）。假设您有一MinHeap堂课，这是您的处理方法。（是的，我的

微信关注